文書および単語の数学的表現 自然言語処理のための機械学習
自然言語処理のための機械学習
文書および単語の数学的表現
- タイプ・トークン
- トークンは単語そのもの、タイプはユニーク化処理をしたあとの単語
- n グラム
- 文書、文のベクトル表現
- 文書に対する前処理とデータスパースネス問題
- 文書に対する前処理
- 日本語の前処理
- データスパースネス問題
- 単語のベクトル表現
- 単語トークンの文脈ベクトル表現
- 単語タイプの文脈ベクトル表現
- 文書や単語の確率分布による表現
- まとめ
- 章末問題